Recherche documentaire par titrage automatique
نویسندگان
چکیده
In this paper, we propose a system in order to facilitate the information retrieval in a set of textual documents. Our approach is based on the automatic titling (and subtitling). This last one is crucial, for example, for the issue of web pages accessibility (W3C standard). Our process of automatic titling consists in extracting relevant noun phrases from texts. These ones can represent a title/subtitle of the document. An original approach combining statistical criteria and placement of the noun phrases in the text allows to propose titles and relevant subtitles. So, the user can have an outline of all the subjects evoked in a mass of documents, and easily find the information he was looking for. An evaluation on real data shows that the solutions given by our automatic titling approach are relevant. MOTS-CLÉS : Syntagmes nominaux, titrage automatique, statistiques.
منابع مشابه
Recherche d'information dans MEDLINE
RÉSUMÉ. Cet article décrit la banque documentaire MEDLINE depuis laquelle une collection test comprenant environ 4,5 million de documents structurés a été construite à partir des campagnes d’évaluation TREC. Dans une deuxième partie, nous évaluons et comparons l’efficacité du dépistage de l’information de dix modèles (probabiliste, modèle de langue, approches vectorielles). Cette évaluation est...
متن کاملNouvelles perspectives en extraction d'information
Les techniques dites d'extraction d'information (EI) ont connu un essor considérable ces dix dernières années. L'EI consiste à extraire de documents des informations précises et à les structurer sous une forme prédéfinie. Il s'agit en général de remplir des formulaires donnant certaines caractéristiques concernant des entités ou des événements évoqués dans les textes ainsi que des relations ent...
متن کاملClassification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML
RÉSUMÉ. Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documentaire. Aujourd’hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les do...
متن کاملClassification conceptuelle d'une collection documentaire - Intertextualité et Recherche d'Information
RÉSUMÉ. Une collection documentaire est généralement représentée comme un ensemble de documents mais cette modélisation ne permet pas de rendre compte des relations intertextuelles et du contexte d’interprétation d’un document. Le modèle documentaire classique trouve ses limites dans les domaines spécialisés où les besoins d’accès à l’information correspondent à des usages spécifiques et où les...
متن کاملUn outil de détection automatique de thèmes
Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2011